查看原文
其他

论文推荐|[ICDAR 2021] 基于预测控制点的文档图像矫正(有源码)

张家鑫 CSIG文档图像分析与识别专委会 2022-07-11

本文简要介绍ICDAR 2021发表的论文“Document Dewarping with Control Points”的主要工作。该论文提出一个简单且有效的文档图像矫正方案:预测控制点和对应的参考点,然后通过插值对形变图进行矫正。插值方式和控制点数量都可以根据具体场景灵活地进行选择。方法取得了SOTA的结果。代码和训练数据都已开源。 

图1 不同的矫正方式。 (a) 现有矫正系统多采用Encoder-decoder的结构来预测密集输出 (b) Forward Mapping, (c) Backward Mapping或者矫正后的文档图像。 (d) 该论文方法采用Encoder的结构预测稀疏的若干控制点和参考点,可取得和方案 (a) 相当矫正效果的同时更加灵活和实用。

一、研究背景



由于文档图像便于存储、检索和传输,其在我们日常生活中十分常见且扮演着十分重要的角色。不同于平面扫描仪获得的文档图像,由手持镜头拍照得到的文档图像往往含有几何形变以及环境背景的干扰。这会使得现有文档信息抽取和内容分析系统的性能下降。为了减小几何形变带来的影响,可以对文档图像进行矫正。

现有的深度学习方法通常使用Encoder-decoder的结构(如图1.a所示)来预测一个像素级的输出,例如Forward Map,Backward Map或直接预测矫正后的文档图像。虽然这种方式已经能够取得比较好的效果,但是还不够灵活和轻量化。该论文提出一个新的思路:仅采用Encoder用来预测若干控制点和参考点,然后再通过插值的方式获得矫正后的文档图像。控制点的方式更加灵活可控,便于用户调整不理想的预测。

二、方法原理简述



图2 整体流程图 
图3  网络结构图

图2 该论文整体流程图:一张含有形变的文档图像输入到神经网络,从神经网络的两个输出分支得到两个输出,分别是控制点和参考点;然后根据这些点对,通过TPS,Linear,Cubic等插值方式将稀疏的对应关系转化成一个密集的对应关系(一个密集的Backward Map);最后利用这个密集的对应关系就能从形变文档图像中采样得到矫正后的文档图像。 

图3是该论文采用的神经网络结构图:以含有形变的文档图像作为输入,得到两个输出,分别是表征31x31个控制点坐标的输出以及表征参考点坐标的输出(表示参考点间水平方向和竖直方向的间隔)。网络结构借鉴了文献[1]中提出的Dilated Residual Block和空间金字塔。

损失函数:网络采用合成数据进行有监督的训练。控制点的回归通过Smooth L1损失函数监督(其中代表控制点的数量): 

除了对控制点绝对位置坐标的监督,该论文还对控制点的相对位置关系进行监督,即预测的控制点间的关系应该和Ground-truth中控制点间的关系一样(k表示所取的周围控制点的数量):  

参考点的间隔通过L1 Loss监督(,分别指水平方向和竖直方向的间隔): 

最后将3个Loss加权求和进行联合监督训练 

 
图4  训练数据的合成
数据合成:该论文方法采用合成数据进行训练。如图4所示,具体合成方式为:随机生成一个形变变换,通过该变换将扫描图和参考点进行变换,得到形变图以及控制点。

三、主要实验结果及可视化结果



图5 中k的取值影响. 其中左边为k=5,右边为k=17。

图6 控制点数量的影响 

图7  用户手动调整的效果。其中左边两张图表示手动调整前的控制点和矫正情况;右边两张图表示手动调整后的控制点和矫正情况。

图8 与现有方法在DocUNet 数据集上的可视化比较。从左到右分别是:输入;DocUNet的结果;DewarpNet的结果;Xie et al.方法的结果;该论文控制点预测结果;该论文矫正结果. 

表1 与现有方法在DocUNet数据集上的定量比较结果
 
表2 不同插值方法,不同控制点数量情况的指标变化以及耗时情况。
从图5可以看出,结合足够距离范围的相对位置信息进行监督可以获得更好的矫正效果。从图6可以看出,在部分情况下,只用较少的控制点也能取得和多控制点相当的矫正效果。从图7可以看出,该方法可以实现手动调整错误预测的控制点,从而改善网络输出的不佳的结果。从图8和表1可以看出,该论文方法和之前的方法相比具有优越性。表2比较了不同插值方法和不同控制点数量情况下指标及耗时情况。

四、总结及讨论



该论文创新性地提出了一种基于控制点的文档图像矫正方法,相比于现有的进行预测密集的方法,该方式更加灵活轻量化以及更加实用。在公开数据集上有较好的效果。此外,该方法的输出结果可以进行人为调整(之前的方法无法实现),所以还可以用于辅助文档矫正数据的标注。

五、相关资源



  • Document Dewarping with Control Points论文地址:

    https://link.springer.com/content/pdf/10.1007%2F978-3-030-86549-8_30.pdf

  • Document Dewarping with Control Points 项目地址:

    https://github.com/gwxie/Document-Dewarping-with-Control-Points

参考文献



[1] Xie, G. W., Yin, F., Zhang, X. Y., & Liu, C. L. (2020, July). Dewarping document image by displacement flow estimation with fully convolutional network. In International Workshop on Document Analysis Systems (pp. 131-144). Springer, Cham.


原文作者: Guo Wang Xie, Fei Yin, Xu Yao Zhang, Cheng-Lin Liu


撰稿:张家鑫

编排:高  学
审校:殷 飞
发布:金连文

 


免责声明:1)本文仅代表撰稿者观点,撰稿者不一定是原文作者,其个人理解及总结不一定准确及全面,论文完整思想及论点应以原论文为准。(2)本文观点不代表本公众号立场。


往期精彩内容回顾

欢迎加入中国图象图形学学会!(附入会攻略)


征稿启事:本公众号将不定期介绍文档图像分析与识别及相关领域的论文、数据集、代码等成果,欢迎自荐或推荐相关领域最新论文/代码/数据集等成果给本公众号审阅编排后发布 (联系Email: eelwjin@scut.edu.cn)。


扫描二维码,关注我们:



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存